Cuando el contexto regresa: internalización robusta en destilación on-policy
¿Sabías que reintroducir el contexto a un modelo destilado puede empeorar su rendimiento? Descubre cómo un ligero regularizador lo evita.
¿Sabías que reintroducir el contexto a un modelo destilado puede empeorar su rendimiento? Descubre cómo un ligero regularizador lo evita.